คู่มือการเขียนโปรแกรม CUDA: การเปลี่ยนแปลงสู่สถาปัตยกรรมที่เน้นผลผลิต (Throughput)

การคำนวณได้ผ่านการเปลี่ยนแปลงพื้นฐานจาก ปรับให้ลดความหน่วงเวลา (Latency-Optimized) การออกแบบโปรเซสเซอร์แบบ CPU ไปยัง เน้นผลผลิต (Throughput-Oriented) สถาปัตยกรรมของ GPU โดยที่โปรเซสเซอร์แบบ CPU เหมือนจักรยานส่งของความเร็วสูง (เร็วสำหรับสินค้าชิ้นเดียว) ในขณะที่ GPU เหมือนเรือขนส่งขนาดใหญ่: แม้จะเคลื่อนที่ช้าต่อหนึ่งชิ้น แต่สามารถบรรทุกภาชนะ 50,000 ใบพร้อมกัน

1. ความหน่วงเวลาเทียบกับผลผลิต

โปรเซสเซอร์แบบ CPU ถูกออกแบบมาเพื่อลดระยะเวลาในการเสร็จสิ้น (time-to-completion) สำหรับลำดับคำสั่งเดี่ยวๆ โดยใช้เทคนิคการคาดการณ์สาขาที่ซับซ้อน ในทางกลับกัน, หน่วยประมวลผลกราฟิก (GPU) ถูกออกแบบมาเพื่อเพิ่มประสิทธิภาพ "งานต่อวินาที" โดยการประมวลผลหลายพันเธรดพร้อมกัน แลกเปลี่ยนความเร็วของเธรดเดี่ยว เพื่อให้ได้ผลผลิตรวมที่มหาศาล

2. การจัดสรรทรานซิสเตอร์

GPU ให้ผลผลิตคำสั่งและแบนด์วิธของหน่วยความจำสูงกว่า CPU ภายใต้ข้อจำกัดด้านราคาและพลังงานที่ใกล้เคียงกัน ซึ่ง GPU ถูกออกแบบเฉพาะสำหรับการคำนวณแบบขนานสูง และใช้ทรานซิสเตอร์มากกว่าใน หน่วยประมวลผลข้อมูล (ALUs)ในขณะที่ CPU ใช้ทรานซิสเตอร์มากขึ้นในการเก็บข้อมูลในแคชและควบคุมการไหลของข้อมูล

3. การพัฒนาของ CUDA

สถาปัตยกรรมการประมวลผลอุปกรณ์รวม (CUDA) ถูกแนะนำโดยบริษัท NVIDIA ในปี 2006 มันเป็นแพลตฟอร์มการประมวลผลแบบขนานและแบบโมเดลการเขียนโปรแกรมที่ทำให้ประสิทธิภาพเพิ่มขึ้นอย่างมาก โดยใช้พลังของ GPU โดยไม่ต้องพึ่งพา API ด้านกราฟิก

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which component consumes the majority of silicon real estate in a traditional CPU?

Arithmetic Logic Units (ALUs)

Control logic and Data Caching

Floating Point Units

Memory Controllers

QUESTION 2

What was the original purpose of the GPU before CUDA?

General purpose scientific computing

Operating system kernel management

Fixed-function hardware for 3D rendering

High-frequency trading

QUESTION 3

In the cargo ship analogy, what represents the 'Throughput'?

The speed at which the ship moves across the ocean.

The total volume of containers delivered at once.

The size of the ship's engine.

The fuel efficiency per container.

QUESTION 4

What is the primary trade-off made by GPUs to achieve high aggregate throughput?

Higher power consumption per unit.

Lower single-thread performance.

Reduced memory bandwidth.

Simplified mathematical precision.

QUESTION 5

Which NVIDIA software component is required to run CUDA applications?

DirectX 12

NVIDIA Driver and CUDA Toolkit

OpenGL Wrapper

Windows GDI+